查看原文
其他

被维基百科引用280万次的论文长什么样?

Guglielmi 科研圈 2018-10-18

  撰文  Giorgia Guglielmi

维基百科引用最多的期刊文章涉及月球坑的名字,以及人类和小鼠基因的 DNA 序列。许多最受欢迎的论文在维基百科上的引用数比其在科学文献中的引用数还要多。

维基百科是世界上访问量第五大的网站。

来源:Chris Batson/Alamy

令人难以置信的是,引用数最多的文章几乎全都是科学论文。”纽约的数据科学家、图书馆员 Matt Miller 说。Miller 分析了负责运营维基百科的旧金山非营利组织维基媒体基金会在三月发布的引用数据,其中包含了约 1570 万条数据记录,显示了在维基百科近 300 个不同语言版本中,拥有正式编号(例如国际标准书号 ISBN 或数字对象识别码 DOI)的各种来源被引用了多少次。维基媒体基金会注意到,维基百科中通过正式编号引用的大部分都是书籍,但是 Miller 特别观察了英语维基百科通过 DOI ——这是期刊文章最常用的编号——引用的文章数目。他分析了 120 万条带有 DOI 的引用,其中包含了 83.5 万余篇不同的文章。


引用最多的论文在英语维基百科上总共被引用了 4702 次,是 2002 年一篇收集了超过 15000 个人类和小鼠基因序列的论文(参见“英语维基百科”)。引用该论文的维基页面几乎全是关于单个基因或蛋白质的页面。“这是个意外的惊喜。”癌症研究人员 Robert Strausberg 说。他是原论文的项目负责人,目前任纽约市路德维希癌症研究所科学副主任。

英语维基百科:前十大被引学术文章

在英语维基百科上有DOI号的引用文章中,引用次数排名前十的分别是(点击英文标题,可查看论文)


4702次引用:《超过15000个人类和小鼠全长cDNA序列的生成和初步分析》(2002)

Generation and initial analysis of more than 15,000 full-length human and mouse cDNA sequences


3387次引用:《NIH全长cDNA计划的现状、质量和扩展:哺乳动物基因收集项目》(2004)

The status, quality, and expansion of the NIH full-length cDNA project: The Mammalian Gene Collection (MGC)


2895次引用:《依巴谷卫星新数据规约的验证》(2007)

Validation of the new Hipparcos reduction


2212次引用:《21243个全长人类cDNA的完整测序和表征》(2004)

Complete sequencing and characterization of 21,243 full-length human cDNAs


1452次引用:《国际天文联合会第17工作组关于月球体系命名法的报告》(1971)

Report on lunar nomenclature by the Working Group of Commission 17 of the IAU


1297次引用:《寡核苷酸帽法:用寡聚核糖核苷酸替代真核mRNA的末端的一种简单方法》

(1994)

Oligo-capping: a simple method to replace the cap structure of eukaryotic mRNAs with oligoribonucleotides


1294次引用:《构建人类蛋白质间交互网络的蛋白质组级图谱》(2005)

Towards a proteome-scale map of the human protein–protein interaction network


1251次引用:《侧重全长和侧重5’末端的cDNA库的构建与表征》(1997)

Construction and characterization of a full length-enriched and a 5'-end-enriched cDNA library


931次引用:《Pan-STARRS PS1观测到的250000颗小行星的绝对星等和斜率参数——初步结果》(2015)

Absolute magnitudes and slope parameters for 250,000 asteroids observed by Pan-STARRS PS1 — preliminary results


878次引用:《关于分光光度法分类小行星的NEOWISE研究:初步结果》(2011)

NEOWISE studies of spectrophotometrically classified asteroids: preliminary results

2004 年发表的一篇扩展版的基因集文章是引用数第二多的,共引用了约 3400 次(相比之下,根据 Google Scholar 的数据显示,科学文献对它的引用数只有 487 次)。该论文的共同作者之一、美国国家癌症中心的癌症遗传学家 Daniela Gerhard 说,这篇文章被引用了这么多次可能是因为它提供了可获取的有关表达基因序列的信息。


总而言之,前十名中有五篇文章是关于 DNA 目录的,其中包括了一篇详细描述如何生成这种库的研究。2005 年的一篇包含了将近 3000 种人类蛋白质互作的图谱也位居前列,排名第七。(维基媒体的原文说:“毫不意外,维基人可喜欢工具文章了。”)


其余四篇均为天文学文章。英语维基引用数第三多的有将近 3000 次引用,是 2007 年的一篇帮助研究者解读依巴谷卫星数据的文章。依巴谷卫星是第一个测量恒星位置、距离和亮度的太空计划。


另外几篇空间科学论文涉及小行星的尺寸和亮度,以及月球坑的名字(见于 1971 年的一篇文章,根据 Google Scholar 的数据显示,这篇文章在科学文献里只有 16 次引用)。依巴谷卫星一文的作者、英国剑桥大学的天文学家 Floor van Leeuwen 说,这些文章的引用次数多,是因为很多天体有着单独的维基页面,而这些论文是非常可靠的引用源。


爬虫的工作


2001 年建立的维基百科每个月有 160 亿次访问量,目前是世界上访问量第五大的网站。所有人都可以新建文章或编辑已有的文章,但是网站的规章要求作者和编者必须为引用的文字和信息标注已发表的文章来源,例如书籍和学术论文。


伦敦慈善机构阿卡迪亚基金会的开放获取项目总监 Ross Mounce 对维基媒体的数据进行了独立分析,得到了全语种维基百科中引用次数最多的 10 篇带 DOI 号的文章(参见“全语种维基百科”)。其中 6 篇是一样的,但是排名第一的完全不同。引用数最多的是一篇 2007 年的论文,它更新了已有百年历史的全球气候分类法。这篇文章有 280 万引用数——但是英语维基中只有 169 次引用(全语种中引用数第二多的在英语维基只有21000多次引用)。


这篇气候研究被引用这么多次是因为有几百万次引用都来源于程序自动生成的页面。根据维基百科的数据显示,截至 2014 年 7 月,瑞典达拉纳大学的物理学家 Sverker Johansson 所写的这个爬虫软件生成了将近 300 万篇文章。其中三分之一是瑞典语,其余的则是两种菲律宾语言——宿务语和瓦瑞语。Johansson 表示,该爬虫生成了数百万篇关于城镇或岛屿的地理位置的文章,而大多数文章都包含当地的气候类别,因此会引用上述气候研究。他补充说,他不知道爬虫自动生成了多少次这篇论文的引用,“不过 280 万听起来差不多。”

全语种维基百科:前十大被引学术文章

在全语种维基百科上有DOI号的引用文章中,引用次数排名前十的分别是(点击英文标题,可查看论文)


2830341次引用:《柯本-盖革气候分类法下的更新版世界地图》(2007)

Updated world map of the Köppen–Geiger climate classification


21350次引用:《使用碎片法预测有机小分子的疏水(亲脂)性:aLogP和cLogP法的分析》(1998)

 (Prediction of hydrophobic (lipophilic) properties of small organic molecules using fragmental methods:  an analysis of ALOGP and CLOGP methods


20247次引用:《NIH全长cDNA计划的现状、质量和扩展:哺乳动物基因收集项目》(2004)

The status, quality, and expansion of the NIH full-length cDNA project: The Mammalian Gene Collection (MGC)


5937次引用:《超过15000个人类和小鼠全长cDNA序列的生成和初步分析》(2002)

Generation and initial analysis of more than 15,000 full-length human and mouse cDNA sequences


5854次引用:《Asiago超新星目录——10年之后》(1999)

The Asiago supernova catalogue — 10 years after


2895次引用:《依巴谷卫星新数据规约的验证》(2007)

Validation of the new Hipparcos reduction


4450次引用:《小行星带的太初激发和清除》(2001)

The primordial excitation and clearing of the asteroid belt


3062次引用:《国际天文联合会第17工作组关于月球体系命名法的报告》(1971)

Report on lunar nomenclature by the Working Group of Commission 17 of the IAU


2587次引用:《21243个全长人类cDNA的完整测序和表征》(2004)

Complete sequencing and characterization of 21,243 full-length human cDNAs


2525次引用:《固态行星级天体的分类》

Classifying solid planetary bodies

Mounce 补充说,其他文章可能在维基百科上有很多次引用,但没有正式标注 DOI 号,即通过其他手段引用,例如 PubMed 的 ID 码。


加州大学数据管理中心馆长 John Chodacki 说,为了让人们能够信任信息,引用非常重要。“不光对期刊文章如此,对维基百科页面也是如此。”他说。但是此前必须通过付费服务才能分析和比较学术文章的引用数据,“最有趣的是,现在这份数据所有人都能拿到。”


版权声明:

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件Chinapress@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。


© 2018 Macmillan Publishers Limited, part of Springer Nature. All Rights Reserved



本文转载自公众号“Nature自然科研”(Nature-Research)


阅读更多


▽ 故事

· 全世界只有6人的“黄金血液”捐献者:响应召唤、跨国献血的“日常”

· 超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线

· 你正在读的论文可能是假的:超过一半的研究者曾“有选择性地”汇报实验结果

· 被HIV感染却不会发病?!他们是天生就能压制病毒的罕见“精英”

▽ 论文推荐

· 我们如何记住“这个人是谁”:社交记忆的神经机制

· 隔着一堵墙,我都能看清你的姿势:MIT团队实现可穿墙透视的人体姿态识别

▽ 论文导读

· Nature 一周论文导读 | 2018 年 6 月 8 日

· Science 一周论文导读 | 2018 年 6 月 9 日


内容合作请联系

keyanquan@huanqiukexue.com

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存